模式识别与人工智能
2025年4月6日 星期日   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2017, Vol. 30 Issue (7): 663-672    DOI: 10.16451/j.cnki.issn1003-6059.201707009
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于函数逼近的冗余值迭代算法*
陈建平1,2,3,胡文1,2,3,傅启明1,2,3,4
1.苏州科技大学 电子与信息工程学院 苏州 215009
2.苏州科技大学 江苏省建筑智慧节能重点实验室 苏州 215009
3.苏州科技大学 苏州市移动网络技术与应用重点实验室 苏州 215009
4.吉林大学 符号计算与知识工程教育部重点实验室 长春 130012
Residual Value Iteration Algorithm Based on Function Approximation
CHEN Jianping1,2,3, HU Wen1,2,3, FU Qiming1,2,3,4
1.School of Electronic and Information Engineering, Suzhou University of Science and Technology, Suzhou 215009
2.Jiangsu Key Laboratory of Intelligent Building Energy Efficiency, Suzhou University of Science and Technology, Suzhou 215009
3.Suzhou Key Laboratory of Mobile Networking and Applied Technologies, Suzhou University of Science and Technology, Suzhou 215009
4.Symbol Computation and Knowledge Engineer of Ministry of Education, Jilin University, Changchun 130012

全文: PDF (623 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余值迭代算法,引入权重因子,构建值函数参数更新向量.同时从理论上证明,利用此更新向量更新值函数参数可以保证算法收敛,解决值迭代算法收敛不稳定的问题.此外,算法引入遗忘因子,加快权重向量的更新速率和算法收敛速度.在Grid World问题上的实验表明,文中算法收敛性能较好,具有较好的鲁棒性.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈建平
胡文
傅启明
关键词 强化学习值迭代函数逼近梯度下降贝尔曼冗余    
Abstract:Aiming at the problem of unstable and slow convergence of traditional value iteration algorithm, an improved residual value iteration algorithm based on function approximation is proposed. The traditional value iteration algorithm and the value iteration algorithm with Bellman residual are combined. Weight factors are introduced and new rules are constructed to update value function parameter vector. Theoretically, the new parameter vector can guarantee the convergence of the algorithm and solve the unstable convergence problem in the traditional value iteration algorithm. Moreover, the forgotten factor is introduced to speed up the convergence of the algorithm. The experimental results of Grid World problem show that the proposed algorithm has good performance and robustness.
Key wordsReinforcement Learning    Value Iteration    Function Approximation    Gradient Descent    Bellman Residual   
收稿日期: 2016-11-02     
ZTFLH: TP 181  
基金资助:国家自然科学基金项目(No.61602334,61672371,61502329)、江苏省自然科学基金项目(No.BK20140283)、苏州市科技计划项目(No.SZS201609)资助
作者简介: 陈建平(通讯作者),男,1963年生,博士,教授,主要研究方向为大数据分析与应用、建筑节能、智能信息处理.E-mail:alanjpchen@yahoo.com.
胡 文,女,1992年生,硕士研究生,主要研究方向为强化学习、建筑节能.E-mail:891848001@qq.com.
傅启明,男,1985年生,博士,讲师,主要研究方向为强化学习、模式识别、建筑节能.E-mail:fqm_1@126.com.
引用本文:   
陈建平,胡文,傅启明. 基于函数逼近的冗余值迭代算法*[J]. 模式识别与人工智能, 2017, 30(7): 663-672. CHEN Jianping, HU Wen, FU Qiming. Residual Value Iteration Algorithm Based on Function Approximation. , 2017, 30(7): 663-672.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201707009      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2017/V30/I7/663
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn